
T>f^nr * ' WELTORGANISATION FOR GEISTIGES EIGENTUM 

Jl\^ X Internationales BOro — 

INTERNATIONALE ANMELDUNG VEROFFENTLICHT NACH DEM VERTRAG UBER DIE 
INTERNATIONALE ZUSAMMEN ARBEIT AUF DEM GEBIET DES PATENTWESENS (PCT) 



(51) Internationale Patentklassifikation ^ 
H04B y66 



Al 



(11) Internationale Veroffentlichungsnummer: WO 99/04506 

28. Januar 1999 (28.01.99) 



(43) Internationales 

Veroffentlichungsdatum : 



(21) Internationales Aktenzeichen: PCT/EP98/01481 

(22) Internationales Anmeldedatum: 13. Marz 1998 (13.03.98) 



(30) Prioritatsdaten: 
197 30 130.4 



14. Juli 1997 (14.07.97) 



DE 



(71) Anmelder (fiir alle Bestimmungsstaaten ausser US): FRAUN- 

HOFER-GESELLSCHAFT ZUR FORDERUNG DER 
ANGEWANDTEN FORSCHUNG E.V. [DE/DE]; Leon- 
rodstrasse 54. I>-80636 Mtinchen (DE). 

(72) Erfinder; und 

(75) Erfinder/Anmelder (nur fur US): HERRE, JUrgen [DE/DE]; 
Am Eichengarten 11. D-91054 Buckenhof (DE). 
GBUR» Uwe [DE/DE]; SchleifmUhlstrasse 4, D-91054 
Erlangen (DE). EHRET, Andreas [DE/DE]; Ger- 
hart-Hauptmann-Strasse 1. D-91058 Erlangen (DE). 
DIETZ, Martin [DE/DE]; Kleinreuther Weg 47, D-90408 
Numberg (DE). TEICHMANN, Bodo [DE/DE]; Eber- 
mannstadter Strassc 2, D-90427 NUmberg (DE). KUNZ, 
Oliver [DE/DE]; Rfttenweg 1. D-96145 SeBlach (DE). 
BRANDENBURG, Karlheinz [DE/DE]; Haagstrasse 32, 
D-91054 Erlangen (DE). GERHAUSER, Heinz [DE/DE]; 
Saugcndorf 17, D-91344 Waischcnfeld (DE). 



(74) Anwalt: SCHOPPE. Fritz; Patentanwaite Schoppe & Zimmer- 
mann, Postfach 71 08 67, D-81458 MUnchen (DE). 



(81) Bestimmungsstaaten: AU, CA. JP. KR. US, europaisches 
Patent (AT, BE, CH, DE, DK, ES. FI. FR, GB. GR, IE, 
IT, LU, MC, NL. PT. SE). 



Veroffentlicht 

Mit internationalem RecherchenberichU 



(54) Title: METHOD FOR CODING AN AUDIO SIGNAL 

(54) Bezeichnung: VERFAHREN ZUM CODIEREN EINES AUDIOSIGNALS 

(57) Abstract 

The invention relates to a method for coding 
or de--coding an audio signal combining the advan- 
tages of TNS processing and noise substitution. A 
time discrete audio signal is initially transformed in 
a frequency range in order to obtain spectral value of 
the temporal audio signal. A prediction of the spec- 
tral values in relation to frequency is subsequently 
made in order to enable spectral residual values. Ar- 
eas within the spectral values encompassing spectral 
values with noise properties are detected , The spec- 
tral residual values arc noise substituted in the noise 
areas, whereupon data relating to the noise areas and 
noise substitution are incorporated into side informa- 
tion pertaining to a coded audio signal. 

(57) Zusanuncnfassung 




REPLACED SIGNAL ENERGIES 



Ein Verfahrcn zum Codieren bzw. Decodieren 
eines Audiosignals kombiniert die Vorteile der 
TNS-Verarbeitung und der Rauschsubstitution. 
Ein zeitdiskrctes Audiosignal wird zuerst in den 
Fiequenzbereich transfonniert, um Spektralwerte des 
zeitlichen Audiosignals zu eihalten. AnschlieBend 
wird eine PrSdiktion der Spektralwerte Ober der 
Fiiequenz durchgefUhrt, um spektrale Restwerte 

zu erhalten. In den spektralen Rcstwerten werden Bereiche erfafit, die spektrale Restwerte mit Rauscheigenschaften umfassen. Die 
spektralen Restwerte in den Rauschl)ereichen werden rauschsubstituien, wonach Informationen bezQglich der Rauschbereiche sowie der 
Rauschsubstitution in Seiteninformationen eines codierten Audiosignals eingebracht werden. 
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Verfahren zum Codieren eines Audiosignals 

Beschreibunq 

Die vorliegende Erfindung bezieht sich auf Verfahren zum Co- 
dieren von Audiosignalen und insbesondere auf ein Verfahren 
zum Godieren eines Audiosignals fur den gerade in der Ent- 
wicklung befindlichen Standard MPEG-2 AAC. 

Der Standardisierungskorper ISO/IEC JTC1/SC29/WG11 , der auch 
als die Moving Pictures Expert Group (MPEG) bekannt ist, 
wurde 1988 gegrtindet, urn digitale Video- und Audiocodier- 
ungsschemen fiir niedrige Datenraten zu spezif izieren . Im 
November 1992 wurde die erste Spezif ikationsphase durch den 
Standard MPEG-l vollendet. Das Audiocodiersystem nach 
MPEG-1, das in ISO 11172-3 spezifiziert ist, arbeitet in 
einem Einkanal- Oder Zweikanalstereo-Modus bei Abtastfre- 
quenzen von 32 kHz, 44,1 kHz und 48 kHz. Der Standard MPEG-1 
Layer II liefert Rundf unkqualitat , wie sie durch die Inter- 
national Telecommunication Union spezifiziert ist, bei einer 
Datenrate von 128 kb/s pro Kanal. 

In seiner zweiten Entwicklungsphase bestanden die Ziele von 
MPEG darin, eine Mehrkanalerweiterung fiir MPEG-l-Audio zu 
definieren, die zur existierenden MPEG-l-Systemen riickwarts- 
kompatibel sein sollte, und ebenfalls einen Audiocodier- 
standard bei niedrigeren Abtastf requenzen (16 kHz, 22,5 kHz^ 
24 kHz) als bei MPEG-1 zu definieren. Der rtickwartskompa- 
tible Standard (MPEG-2 BC) sowie der Standard mit niedri- 
geren Abtastf requenzen (MPEG-2 LSF) wurden im November 1994 
vollendet, MPEG-2 BC liefert eine gute Audioqualitat bei 
Datenraten von 64 0 - 896 kb/s fiir 5 Kanale mit voller Band- 
breite. Seit 1994 besteht eine weitere Anstrengung des 
MPEG-2 -Audiostandardisierungskommittees darin , einen Multi- 
kanalstandard mit hoherer Qualitat zu definieren, als sie 
erreichbar ist, wenn eine Riickwartskompatibilitat zur MPEG-1 
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gefordert wird. Dieser nicht-riickwartskompatible Audio- 
standard gemafi MPEG-2 wird als MPEG-2 NBC bezeichnet. Das 
Ziel dieser Entwicklung besteht darin, Rundf unkqualitaten 
gemaB den ITU-R-Anf orderungen bei Datenraten von 384 kb/s 
Oder darunter ftir 5-kanalige Audiosignale , bei denen jeder 
Kanal die voile Bandbreite hat, zu erreichen. Der Audio- 
codierstandard MPEG-2 NBC wurde April 1997 vollendet. Das 
Schema MPEG-2 NBC wird den Kern fiir den bereits geplanten 
Audiostandard MPEG-4 bilden, welcher hohere Datenraten haben 
wird (uber 40 kb/s pro Kanal) . Der NBC oder nicht ruckwarts 
kompatible Standard kombiniert den Codierwirkungsgrad einer 
hochauf losenden Filterbank, von Pradiktionstechniken und der 
redundanzreduzierenden Huf fman-Codierung, urn eine Audioco- 
dierung mit Rundf unkqualitat bei sehr niedrigen Datenraten 
zu erreichen. Der Standard MPEG-2 NBC wird auch als MPEG-2 
NBC AAC (AAC = Advanced Audio Coding) bezeichnet. Eine 
detaillierte Darstellung des technischen Inhalts von MPEG-2 
AAC findet sich in M. Bosi, K. Brandenburg, S. Quackenbush, 
L. Fielder, K, Akagiri, H. Fuchs, M. Dietz, J. Herre, G. 
Davidson, Yoshiaki Oikawa: "ISO/IEC MPEG-2 Advanced Audio 
Coding", 101st AES Convention, Los Angeles 1996, Preprint 
4382. 

Effiziente Audiocodierverf ahren entfernen sowohl Redundanzen 
als auch Irrelevaiizen von Audiosignalen. Korrelationen 
zwischen Audioabtastwcrten und Statistiken der Abtastwert- 
darstellung werden ausgenutzt, um Redundanzen zu entfernen. 
Frequenzbereichs- und Zeitbereichsmaskierungseigenschaf ten 
des menschlichen Gehorsystems werden ausgenutzt, um nicht- 
wahrnehmbare Signalanteile (Irrelevanzen) zu entfernen. Der 
Frequenzgehalt des Audiosignals wird mittels einer Filter- 
bank in Teilbander unterteilt. Die Datenratenreduktion wird 
erreicht, indero das Spektruin des Zeitsignals gemaB psycho- 
akustischen Modellen quantisiert wird, und dieselbe kann ein 
verlustloses Codierverf ahren umfassen. 

Allgeinein gesagt wird ein zeitkontinuierliches Audiosignal 
abgetastet, um ein zeitdiskretes Audiosignal zu erhalten. 
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Das zeitdiskrete Audiosignal wird inittels einer Fenster- 
funktion gefenstert, um auf einanderf olgende Blocke oder 
Frames mit einer bestiinmten Anzahl, z. B. 1024, gefensterter 
zeitdiskreten Abtastwerten zu erhalten. Nacheinander wird 
jeder Block von gefensterten zeitdiskreten Abtastwerten des 
Audiosignals in den Frequenzbereich transf ormiert , wobei 
beispielsweise eine modif izierte diskrete Cosinustransf or- 
mation (MDCT) verwendet werden kann. Die somit eirhaltenen 
Spektralwerte sind noch nicht quantisiert und mtissen demnach 
quantisiert werden. Das Hauptziel dabei besteht darin, die 
Spektraldaten derart zu quantisieren, daB das Quantisie- 
rungsrauschen durch die quant isierten Signale selbst mas- 
kiert oder verdeckt wird. Dazu wird ein im MPEG-AAC-Standard 
beschriebenes psychoakustisches Modell herangezogen, das 
unter Berucksichtigung der speziellen Eigenschaf ten des 
menschlichen Gehors abhangig von dem vorliegenden Audiosi- 
gnal Maskierungsschwellen berechnet. Die Spektralwerte wer- 
den nun derart quantisiert, daB das eingefiihrte Quantisie- 
rungsrauschen versteckt und soinit unhorbar wird. Das Quan- 
tisieren ftihrt also zu keinem horbaren Rauschen. 

In dem NBC-Standard wird ein sog. ungleichf ormiger Quanti- 
sierer verwendet. Zusatzlich wird ein Verfahren verwendet^ 
um das Quantisierungsrauschen zu fomtien. Das NBC-Verf ahren 
verwendet wie auch vohergegenene Standards die einzelne 
Verstarkung von Gruppen von Spektralkoef f izienten, welche 
als Skalenf aktorbander bekannt sind. Um so effizient wie 
moglich zu arbeiten, ist es wunschenswert , in der Lage zu 
sein, das Quantisierungsrauschen in Einheiten zu formen, die 
an die Frequenzgruppen des menschlichen Gehorsystems mog- 
lichst angelehnt sind. Es ist somit moglich, Spektralwerte 
zu gruppieren, welche die Bandbreite der Frequenzgruppen 
sehr eng wiedergeben. Einzelne Skalenf aktorbander konnen 
mittels Skalenf aktoren in Stufen von 1,5 dB verstarkt 
werden. Die Rauschf ormung wird erreicht, da verstarkte 
Koef f izienten groBere Amplituden haben. Daher werden sie im 
allgemeinen ein hoheres Signal/Rausch-VerhSltnis nach der 
Quant isierung zeigen. Andererseits benotigen groBere 
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Amplituden mehr Bits zur Codierung, d. h. die Bitverteilung 
zwischen den Skalenf aktorbandern wird implizit verandert. 
Selbstverstandlich muB die Verstarkung durch die Skalenfak- 
toren im Decodierer korrigiert werden. Aus diesem Grund miis- 
sen die Verstarkungsinf ormationen , die in den Skalenf aktoren 
in Einheiten von 1,5 dB-Schritten gespeichert sind, als Sei- 
-teninf ormationen zu dem Decodierer iibertragen werden. 

Nach der Quantisierung der in Skalenf aktorbandern vorliegen- 
den ggf- durch skalenf aktoren verstarkten Spektralwerte sol- 
len dieselben codiert werden- Das Eingangssignal in ein 
rauschlos^s Codiermodul ist somit der Satz von beispiels- 
weise 1024 quantisierten Spektralkoef f izienten. Durch das 
rauschlose Codiermodul werden die Satze von 1024 quanti- 
sierten Spektralkoef f izienten in Abschnitte oder "Sections" 
eingeteilt, derart, daB eine einzige Huf f man-Codiertabelle 
("Codebook") verwendet wird, um jeden Abschnitt zu codieren, 
Aus Codieref f izienzgrunden konnen Abschnittsgrehzen nur an 
Skalenf aktorbandgrenzen vorhanden sein, derart, daB fur 
jeden Abschnitt oder "Section" des Spektrums sowohl die 
Lange des Abschnitts in Skalenf aktorbandern als auch die 
Huf fman-Codiertabellennuminer , die fiir den Abschnitt ver- 
wendet wird, als Seiteninf ormationen iibertragen werden 
miissen. 

Das Bilden der Abschnitte ist dynamisch und variiert typi- 
scherweise von Block zu Block, derart, dafl die Anzahl von 
Bits, die benotigt werden, um den vollen Satz von quanti- 
sierten Spektralkoef f izienten darzustellen , minimiert wird. 
Die Huf fman-Codierung wird verwendet, um n-Tupel von quan- 
tisierten Koeff izienten darzustellen , wobei der Huffman-Code 
von einem von 12 Codiertabellen abgeleitet wird. Der maxi- 
male absolute Wert der quantisierten Koeff izienten, der von 
jeder Huf fman-Codiertabelle dargestellt werden kann, und die 
Anzahl von Koeff izienten in jedem n-Tupel fur jede Codierta- 
belle sind a priori festgelegt. 



Der Sinn des Bildens der Abschnitte oder Sections besteht 
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also darin, Bereiche mit gleicher Signalstatistik zu grup- 
pieren, uin mittels einer einzigen Huf f man-Codiertabelle fiir 
eine Section einen moglichst hohen Codiergewinn zu errei- 
Chen, wobei der Codiergewinn allgemein durch den Quotienten 
aus Bits vor der Codierung und Bits nach der Codierung de- 
finiert ist. Mittels einer Codiertabellennummer ("Codebook- 
number") , die in der fiir das NBC-Verf ahren verwendeten Bit- 
stromsyntax festgelegt ist, wird auf eine der 12 Huf f man--Co- 
diertabellen verwiesen, welche fvir einen speziellen Ab- 
schnitt den hochsten Codiergewinn ermoglicht, Der Ausdruck 
"Codiertabellennummer" soli in dieser Anmeldung somit den 
Platz in der Bitstromsyntax bezeichnen, der fiir die Codier- 
tabellennummer reserviert ist. Urn 11 verschiedene Codierta- 
bellennummern binar zu codieren, werden 4 Bit benotigt. Die- 
se 4 Bit mussen fiir jeden Abschnitt, d. h. fiir jede Gruppe 
von Spektralwerten, als Seiteninf ormationen iibertragen wer- 
den, damit der Decodierer zum Decodieren die entsprechende 
korrekte Codiertabelle auswahlen kann. 

Fig- 2 zeigt eine allgemeine Ubersicht liber einen Codierer 
und einen Decodierer, die nach dem beschriebenen Basiskon- 
zept arbeiten. Uber einen Audioeingang 200 wird ein vorzugs- 
weise bereits zeitdiskret vorliegendes Audiosignal einge- 
speist. Das zeitdiskret vorliegende Audiosignal wird nun 
innerhalb eines Blocks 202, der die Bezeichnung Analysefil- 
terbank tragt, mit einer Fensterfunktion gefenstert, um 
Blocke von zeitdiskreten gefensterten Audiosignalen, welche 
auch als "Frames" bezeichnet werden, zu erhalten. In der 
Analysef ilterbank 202 werden die Blocke von gefensterten 
Werten in den Frequenzbereich transf ormiert . Am Ausgang der 
Analysef ilterbank 2 02 erscheinen also Spektralwerte, die in 
einem Block Quantisierung und Codierung 204 zuerst quanti- 
siert und dann beispielsweise mittels einer Huf f man-Codie- 
rung Redundanz-codiert werden. Aus dem zeitdiskreten Audio- 
eingangssignal am Audioeingang 200 werden ferner mittels ei- 
nes psychoakustischen Modells 206 Maskierungsinf ormationen 
berechnet, die bei der Quantisierung verwendet werden, damit 
das eingefiihrte Quant is ierungsrauschen zum Quant is ieren der 
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Spektralwerte durch dieselben psychoakustisch maskiert oder 
verdeckt wird^ Die quantisierten und codierten Spektralwerte 
warden bei dem Codierer in einen Bitstrommultiplexer 208 
eingespeist, der aus dem quantisierten und Redundanz-codier- 
ten Spektralwerten einen Bitstrom bildet, wobei der Bitstrom 
ferner zur Decodierung erf orderliche Seiteninf ormationen 
aufweist, wie es flir Fachleute bekannt ist. An einem Bit- 
stromausgang 210 liegt der fertig codierte Bitstrom vor, der 
nun eine codierte Version des Audiosignals am Audioeingang 
2 00 ist* Dieser Bitstrom wird zu einem Decodierer iibertragen 
und in einen Bitstromeingang 212 desselben eingespeist. In 
dem Bitstromdemultiplexer 214 wird der Bitstrom in Seitenin- 
f ormationen und quantisierte und codierte Spektralwerte 
zerlegt, welche in dem Block inverse Quantisierung 216 Re- 
dundanz-decodiert und requantisiert warden, um einer Syn- 
tesef ilterbank 218 zugefiihrt zu warden, die die am Eingang 
derselben vorliegenden Spektralwerte wieder in den Zeit- 
bereich transf ormiert , woraufhin ein codiertes und deco- 
diertes Audiosignal an einem Audioausgang 220 des Deco- 
dierers vor liegt. Das am Audioausgang 22 0 vorliegende 
zeitdiskrete codierte und decodierte Audiosignal entspricht 
bis auf eingefiihrte Codierungsf ehler dem ursprunglichen am 
Audioeingang 200 vorliegenden zeitdiskreten Audiosignal. 

Ebenfalls bereits bekannt und in der Technik beschrieben (J. 
Herre, J- Johnston, "Enhancing the Performance of 

Perceptual Audio Coders by Using Temporal Noise Shaping 
(TNS)", lOlst AES Convention, Los Angeles 1996, Preprint 
4384) ist die sog. "Temporal Noise Shaping" -Technik. Die 
TNS-Technik (TNS = Temporal Noise Shaping = zeitliche 
Rauschf ormung) gestattet allgemein gesagt mittels einer 
prSdiktiven Codierung der Spektralwerte eine zeitliche 
Formung der Feinstruktur des Quantisierungsrauschens . Die 
TNS-Technik basiert auf einer konsequenten Anwendung des 
Dualismus zwischen Zeit- und Freguenzbereich. Aus der 
Technik ist bekannt, dafi die Autokorrelationsf unktion eines 
Zeitsignals, wenn sie in den Freguenzbereich transf ormiert 
wird,. die spektrale Leistungsdichte eben diesen Zeitsignals 
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angibt. Der duale Fall dazu ergibt sich, wenn die Auto- 
korrelationsfunktion des Spektruins eines Signals gebildet 
wird und in den Zeitbereich transf ormiert wird. Die in den 
Zeitbereich transf ormierte oder riicktransf ormierte Auto- 
korrelationsfunktion wird auch als Quadrat der Hilbert- 
Hullkurve des Zeitsignals bezeichnet. Die Hilbert-Hullkurve 
eines Signals ist somit direkt mit der Autokorrelations- 
funktion seines Spektrums verbunden. Die quadrierte Hil- 
bert-Hullkurve eines Signals und die spektrale Leistungs- 
dichte desselben stellen somit duale Aspekte im Zeitbereich 
und im Frequenzbereich dar, Wenn die Hilbert-Hullkurve eines 
Signals ftir jedes TeilbandpaBsignal Uber einem Bereich von 
Frequenzen konstant bleibt, dann wird auch die Autokor- 
relation zwischen benachbarten Spektralwerten konstant sein. 
Dies bedeutet in der Tat, daJi die Serie von Spektralkoef f i- 
zienten iiber der Frequenz stationar ist, weshalb pradiktive 
Codiertechniken effizient verwendet werden konnen, urn dieses 
Signal darzustellen, und zwar unter Verwendung eines gemein- 
samen Satzes von Pradiktionskoef f izienten, 

Um diesen Sachverhalt zu veranschaulichen, sei auf die Fig. 
5a und 5b verwiesen. Fig- 5a zeigt einen kurzen Ausschnitt 
aus einem zeitlich stark transienten "Kastagnetten" -Signal 
einer Dauer von ca. 4 0 ms. Dieses Signal wurde in mehrere 
Teilbandpafisignale zerlegt, wobei jedes Teilbandpaiisignal 
eine Bandbreite von 500 Hz hat. Fig. 5b zeigt nun die Hil- 
bert-Hiillkurven fiir diese BandpaBsignale mit Mittenfre- 
guenzen, die von 1500 Hz bis 4000 Hz reichen, Aus Klarheits- 
griinden wurden alle Hiillkurven auf ihre Maximalamplitude 
normiert. Of f ensichtlich sind die Formen aller Teilhull- 
kurven sehr stark aufeinander bezogen, weshalb ein gemein- 
samer Pradiktor innerhalb dieses Frequenzbereiches verwendet 
werden kann, um das Signal effizient zu codieren. Ahnliche 
Beobachtungen konnen bei Sprachsignalen gemacht werden, bei 
denen der Effekt der glottalen Erregungspulse uber dem ge- 
samten Frequenzbereich aufgrund der Natur des menschlichen 
Spracherzeugungsmechanismus vorhanden ist. 
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Fig. 5b zeigt also, daB die Korrelation benachbarter Werte 
beispielsweise bei einer Frequenz von 2000 Hz ahnlich wie 
bei beispielsweise einer Frequenz von 3000 Hz bzw. 1000 Hz 
ist. 

Eine alternative Weise zum Verstandnis der Eigenschaft der 
spektralen Pradiktierbarkeit von transienten Signalen kann 
aus der in Fig- 4 dargestellten Tabelle erhalten werden. 
Links oben in der Tabelle ist ein zeitkontinuierliches 
Signal u(t) gezeigt, das einen sinusf ormigen Verlauf hat. 
Dem ist das Spektrum U(f ) dieses Signales gegeniibergestellt , 
das aus einein einzigen Dirac-Impuls besteht. Die optimale 
Codierung fur dieses Signal besteht in der Codierung von 
Spektraldaten oder Spektralwerten, da hier fiir das gesamte 
Zeitsignal lediglich sowohl der Betrag als auch die Phase 
des Fourrierkoef f izienten ubertragen werden braucht, urn das 
Zeitsignal vollstandig rekonstruieren zu konnen. Ein 
Codieren von Spektraldaten entspricht gleichzeitig einer 
Pradiktion ixn Zeitbereich. Eine pradiktive Codierung wiirde 
hier also im Zeitbereich stattfinden itiiissen. Das sinusf or- 
itiige Zeitsignal hat also eine flache zeitliche Hullkurve, 
welche einer maximal nicht flachen Hullkurve im Frequenz- 
bereich entspricht. 

Nun sei der entgegengestzte Fall betrachtet, bei dem das 
Zeitsignal u(t) ein maximal transientes Signal in der Form 
eines Dirac-Impulses im Zeitbereich ist. Ein Dirac-Impuls im 
Zeitbereich entspricht einem "flachen" Leistungsspektrum, 
wahrend das Phasenspektrum gemaB der zeitlichen Position des 
Impulses rotiert. Of f ensichtlich stellt dieses Signal fur 
die oben erwahnten traditionellen Verfahren, wie z. B. die 
Transf ormationscodierung oder Codierung von Spektraldaten 
Oder eine lineare Pradiktionscodierung der Zeitbereichs- 
daten, ein Problem dar. Dieses Signal kann am besten und 
effektivsten im Zeitbereich codiert werden, da lediglich die 
zeitliche Position sowie die Leistung des Dirac-Impulses 
ubertragen werden muS, was durch konsequente Anwendung des 
Dualismus dazu fUhrt, daB auch eine pradiktive Codierung im 
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Frequenzbereich eine geeignetes Verfahren zur effizienten 
Codierung darstellt. 

Es ist sehr wichtig, nicht die pradiktive Codierung von 
Spektralkoef f izienten iiber der Frequenz mit dem bekannten 
dualen Konzept der Pradiktion von Spektralkoef f izienten von 
einem Block zum nachsten zu verwechseln, das bereits imple- 
mentiert ist und ebenfalls in dem oben erwahnten Artikel (M. 
Bosi, K. Brandenburg, S. Quakenbush, L, Fielder, K. Akagiri, 
H. Fuchs, M. Dietz, J. Herre, G. Davidson, Yoshiaki Oikawa: 
"ISO/IEC MPEG-2 Advanced Audio Coding", 101st AES Con- 
vention, Los Angeles 1996, Preprint 4 382) beschrieben ist. 
Bei der Pradiktion von Spektralkoef f izienten von einem Block 
zum nachsten, welche einer Pradiktion iiber der Zeit ent- 
spricht, wird die spektrale Auflosung erhoht, wahrend eine 
Pradiktion von Spektralwerten tiber der Frequenz die zeit- 
liche Auflosung steigert. Ein Spektralkoef f izient bei bei- 
spielsweise 1000 Hz kann also durch den Spektralkoef f izien- 
ten bei beispielsweise 900 Hz in demselben Block Oder Frame 
ermittelt werden. 

Die dargestellten Uberlegungen fuhrten also dazu, ein effi- 
zientes Codierverf ahren fur transiente Signale zu erhalten. 
PrSdiktive Codiertechniken konnen unter Beriicksichtigung der 
Dualitat zwischen Zeit und Frequenzbereich im wesentlichen 
analog zu der bereits bekannten Pradiktion von einem Spek- 
tralkoef f izienten zum Spektralkoef f izienten mit gleicher 
Frequenz im nSchsten Block behandelt werden. Da die spek- 
trale Leistungsdichte und die quadrierte Hilbert-Hullkurve 
eines Signals dual zueinander sind, wird eine Reduktion 
einer Restsignalenergie oder ein Pradiktionsgewinn abhangig 
von einem FlachheitsmalS der quadrierten Hullkurve des 
Signals im Gegensatz zu einem spektralen FlachheitsmaB beim 
konventionellen Pradiktionsverf ahren erhalten. Der poten- 
tielle Codierungsgewinn steigt mit transienteren Signalen 
an. 

Als mogliche Pradiktionsschemen bietet sich sowohl das Pra- 
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diktionsschema mit geschlossener Schleife, das auch Ruck- 
wartspradiktion genannt wird, sowie das Pradiktionsschema 
xnit offener Schleife, das auch Vorwartspradiktion genannt 
wird, an. Beim spektralen Pradiktionsschema mit geschlos- 
sener Schleife (Ruckwartspradiktion) ist die Hullkurve des 
Fehlers flach. Anders ausgedruckt wird die Fehlersignalener- 
gie gleichmaBig iiber der Zeit verteilt. 

Bei einer Vorwartspradiktion, wie sie in Fig. 6 dargestellt 
ist, tritt jedoch eine zeitliche Formung des durch die Quan- 
tisierung eingefiihrten Rauschens auf- Ein zu pradizierender 
Spektralkoef f izient x(f) wird einem Summationspunkt 600 zu- 
gefuhrt. Derselbe Spektralkoef f izient wird ferner einem Pra- 
diktor 610 zugefuhrt, dessen Ausgangssignal mit negativem 
Vorzeichen ebenfalls dem Summationspunkt 600 zugefiihrt wird. 
Das Eingangssignal in einen Quantisierer 620 stellt somit 
die Differenz des Spektralwerts x(f) und des durch Pradik- 
tion berechneten Spektralwerts Xp(f) dar. Bei der Vorwarts- 
pradiktion wird die Gesamtf ehlerenergie in den decodierten 
Spektralkoef fizientendaten gleichbleiben . Die zeitliche Form 
des Quantisierungsf ehlersignals wird jedoch als zeitlich 
geformt am Ausgang des Decodierers erscheinen, da die Pra- 
diktion auf die Spektralkoef fizienten angewendet wurde, 
wodurch das Quantisierungsrauschen zeitlich unter das tat- 
sachliche Signal gelegt wird und somit maskiert werden kann. 
Auf diese Art und Weise werden Probleme der zeitlichen Mas- 
kierung z* B. bei transienten Signalen oder Sprachsignalen 
vermieden. 

Dieser Typ der pradiktiven Codierung von Spektralwerten wird 
daher als die TNS- oder zeitliche Rauschf ormungstechnik 
bezeichnet. Zur Veranschaulichung dieser Technik sei auf 
Fig. 7a verwiesen. Links oben in Fig. 7a befindet sich ein 
Zeitverlauf eines stark transienten Zeitsignals. Dem Zeit- 
verlauf ist der Ausschnitt eines DCT-Spektrums rechts oben 
in Fig. 7a gegenlibergestellt . Die linke untere Darstellung 
von Fig. 7 zeigt die resultierende Frequenzantwort eines 
TNS-Synthesef ilters, das durch die LPC-Operation berechnet 
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wurde (LPC = Linear Prediction Coding) . Es sein angemerkt, 
daB die (normierten) Frequenzkoordinaten in d.iesem Diagramm 
den Zeitkoordinaten aufgrund der Zeitbereichs- und Frequenz- 
bereichsdualitat entsprechen. Of f ensichtlich fuhrt die LPC- 
Berechnung zu einem "Quellenmodell" des Eingangssignals , da 
die Frequenzantwort des LPC-berechneten Synthesef ilters der 
Hiillkurve des stark transienten Zeitsignals ahnelt. In Fig. 
7a rechts unten ist eine Darstellung der spektralen Rest- 
werte, d. h. des Eingangssignals des Quantisierers 620 in 
Fig. 6, uber der Frequenz gezeigt. Ein Vergleich zwischen 
den spektralen Restwerten nach der Pradiktion und den Spek- 
tralwerten bei direkter Zeit-Frequenz-Transf ormat ion zeigt, 
dal3 die spektralen Restwerte eine wesentlich geringere 
Energie als die ursprlinglichen Spektralwerte aufweisen. Bei 
dem gezeigten Beispiel entspricht die Reduktion der Energie 
der spektralen Restwerte einem Gesamtpradiktionsgewinn von 
etwa 12 dB. 

Zu der Bedeutung der linken unteren Darstellung in Fig. 7a 
sei folgendes angemerkt. Bei klassischer Anwendung der Pra- 
diktion auf Zeitbereichssignale ist der Frequenzgang des 
Synthesef ilters eine Annaherung des Betragsspektrums des 
Eingangssignals, Das Synthesef ilter (re) generiert gewisser- 
maBen die spektrale Gestalt des Signals aus einem Restsignal 
mit naherungsweise "weiBem" Spektrum. Bei Anwendung der Pra- 
diktion auf spektrale Signale, wie es bei der TNS-Technik 
der Fall ist, ist der Frequenzgang des . Synthesef ilters eine 
Annaherung der Hiillkurve des Eingangsf ilters • Der Frequenz- 
gang des Synthesef ilters ist nicht die Fouriertransf ormierte 
der Impulsantwort , wie es im klassischen Fall gilt, sondern 
die inverse Fouriertransf ormierte . Das TNS-Synthesef ilter 
(re) generiert sozusagen den Hiillkurvenverlauf des Signals 
aus einem Restsignal mit naherungsweise "weifler" (d, h. 
flacher) Hiillkurve, So zeigt die linke untere Abbildung von 
Fig» 7a also die durch das TNS-Synthesef ilter modellierte 
Hiillkurve des Eingangssignals. Diese ist hier eine loga- 
rithmische Darstellung der HUllkurven-Annaherung des im der 
dariiberliegenden Abbildung geziegten Kastagnettensignals . 
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Anschlieliend wurde ein Codierungsrauschen in die spektralen 
Restwerte eingeftihrt, derart, daB in jedem Codierband mit 
einer Breite von beispielsweise 0,5 Bark ein Signal/Rau- 
schen-Verhaltnis von etwa 13 dB resultierte. Die aus der 
Einfiihrung des Quantisierungsrauschen resultierenden Fehler- 
signale im Zeitbereich sind in Fig. 7b gezeigt. Die linke 
Darstellung in Fig. 7b zeigt das Fehlersignal aufgrund des 
Quant isierungsrauschens bei verwendeter TNS-Technik, wahrend 
im rechten Diagramm die TNS-Technik aus vergleichszwecken 
nicht verwendet wurde. Wie erwartet ist das Fehlersignal im 
linken Diagramm nicht gleichmaftig uber den Block verteilt, 
sondern in dem Bereich konzentriert , in dem auch ein hoher 
Signalanteil vorhanden ist, welcher dieses Quantisierungs- 
rauschen optimal verdecken wird. Im rechten Fall ist dagegen 
das eingeflihrte Quantisierungsrauschen gleichmaBig im Block, 
d. h. iiber der Zeit, verteilt, was dazu fuhrt, daB im vor- 
deren Bereich, in dem tatsachlich kein oder fast kein Signal 
ist, ebenfalls Rauschen vorhanden ist, das zu horen sein 
wird, wahrend in dem Bereich, in dem hohe Signalanteile 
vorhanden sind, ein relativ kleines Rauschen vorhanden ist, 
durch das die Markierungsmoglichkeiten des Signals nicht 
vollstandig ausgeniitzt werden. 

Eine Implementierung eines TNS-Filters 804 in einen Codierer 
ist in Fig. 8a gezeigt. Derselbe ist zwischen einer Analyse- 
filterbank 802 und einem Quantisierer 806 angeordnet. Das 
zeitdiskrete Eingangssignal wird bei dem in Fig. 8a gezeig- 
ten Codierer in einen Audioeingang 8 00 eingespeist, wahrend 
das quantisierte Audiosignal bzw. quantisierte Spektralwerte 
Oder die quantisierten spektralen Restwerte an einem Ausgang 
808 ausgegeben werden, dem ein Redunanz -Codierer nachge- 
schaltet sein kann. Das Eingangssignal wird also in Spek- 
tralwerte transformiert . Basierend auf den berechneten Spek- 
tralwerten wird eine tibliche lineare Pradiktionsrechnung 
ausgefUhrt, welche beispielsweise durch Bilden der Auto- 
korrelationsmatrix der Spektralwerte und unter Verwendung 
einer Levinson-Durbin-Rekursion stattfindet. Fig. 8b zeigt 
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eine detailliertere Ansicht des TNS-Filters 804. An einem 
Filtereingang 810 werden die spektralwerte x(l), x(i), 
x(n) eingespeist. Es kann vorkommen, da/i lediglich ein 
bestiminter Frequenzbereich trans iente Signals aufweist, 
wahrend wiederum ein anderer Frequenzbereich eher statio- 
narer Natur ist. Diese Tatsache wird bei dem TNS-Filter 804 
durch einen Eingangsschalter 812 sowie durch einen Ausgangs- 
schalter 814 beriicksichtigt , wobei die Schalter zunachst 
jedoch fur eine Parallel-zu-Seriell- bzw. Seriell-zu-Pa- 
rallel-Wandlung der zu verarbeitehden Daten sorgen. Abhangig 
davon, Ob ein bestimmter Frequenzbereich instationar ist und 
einen bestimmten Codierungsgewinn durch die TNS-Technik 
verspricht, wird nur dieser Spektralbereich TNS-verarbeitet , 
was dadurch geschieht, daB der Eingangsschalter 812 bei- 
spielsweise bei dem Spektralwert x(i) startet und z. B. bis 
zu dem Spektralwert x(i+2) lauft. Der innere Bereich des 
Filters besteht wieder aus der Vorwartspradiktionsstruktur , 
d- h. dem Pradiktor 610 sowie dem Summationspunkt 600. 

Die Berechnung zur Bestimmung der Filterkoef f izienten des 
TNS-Filters bzw. zur Bestimmung der Pradiktionskoeff izienten 
wird folgendermaBen durchgef uhrt . Das Bilden der Autokorre- 
lationsmatrix und das Verwenden der Levinson-Durbin-Rekur- 
sion wird fiir die hochste erlaubte Ordnung des Rauschfor- 
mungsfi Iters, z. B. 20, durchgef uhrt . Wenn der berechnete 
PrSdiktionsgewinn eine bestimmte Schwelle iiberschreitet , 
wird die TNS-Verarbeitung aktiviert. 

Die Ordnung des verwendeten Rauschformungs filters fur den 
gegenwSrtigen Block wird dann durch anschlieftendes Entfernen 
aller Koeff izienten mit einem ausreichend kleinen Absolut- 
wert vom Ende des Koeff izientenarrays bestimmt. Auf diese 
Art und Weise liegen die Ordnungen von TNS-Filtern ublicher- 
weise in der Groftenordnung von 4-12 fQr ein Sprachsignal . 

Wenn fur einen Bereich von Spektralwerten x(i) beispiels- 
weise ein ausreichend hoher Codierungsgewinn bestimmt wird, 
wird derselbe verarbeitet, und es wird am Ausgang des TNS- 
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Filters nicht der Spektralwert x(i) sondern der spektrale 
Restwert x^Ci) ausgegeben. Dieser hat eine wesentlich ge- 
ringere Amplitude als der ursprungliche Spektralwert x(i) , 
wie es aus Fig. 7a ersichtlich ist. Die zum Decodierer 
ubertragenen Seiteninf ormationen erhalten somit zusatzlich 
zu den iiblichen Seiteninf ormationen eine Flag, die die 
Verwendung von TNS anzeigt, und falls erf orderlich, Inf or- 
mationen tiber den Zielf requenzbereich und ebenfalls uber das 
TNS-Filter, das zum Codieren verwendet wurde. Die Filterda- 
ten konnen als quantisierte Filterkoef f izienten dargestellt 
werden. 

Im Decodierer, welcher in Fig. 9a skizziert ist, wird fur 
jeden Kanal eine TNS-Codxerung riickgangig gemacht. Spektrale 
Restwerte Xp(i) werden in dem inversen Quantisierer 216 
requantisiert und in ein inverses TNS-Filter 900 einge- 
speist, dessen naherer Aufbau in Fig. 9b dargestellt ist. 
Das inverse TNS-Filter 900 liefert als Ausgangssignal wieder 
Spektralwerte, die in einer Synthesef ilterbank 218 in den 
Zeitbereich transf ormiert werden. Das TNS-Filter 900 umfafit 
wiederum einen Eingangsschalter 902 sowie einen Ausgangs- 
schalter 908, welche zunachst wieder zur Parallel-Seriell- 
Wandlung bzw. zur Seriell-Paralalel-Wandlung der verarbei- 
teten Daten dienen. Der Eingangsschalter 902 beriicksichtigt 
ferner einen eventuell verwendeten Zielf requenzbereich, urn 
nur spektrale Restwerte einer inversen TNS-Codierung zuzu- 
fuhren, wahrend nicht TNS-codierte Spektralwerte zu einem 
Ausgang 910 unverandert durchgelassen werden. Das inverse 
Pradiktionsf ilter umfaBt wiederum einen Pradiktor 906 sowie 
einen Summationspunkt 904. Dieselben sind jedoch im Unter- 
schied zum TNS-Filter f olgendermaBen verbunden. Ein spektra- 
ler Restwert gelangt uber den Eingangsschalter 902 an den 
Summationspunkt 904, an dem derselbe mit dem Ausgangssignal 
des Pradiktors 906 summiert wird. Der Pradiktor liefert als 
Ausgangssignal einen geschatzten Spektralwerts Xp(i) . Der 
Spektralwert x(i) wird liber den Ausgangsschalter an den Aus- 
gang des inversen TNS-Filters ausgegeben. Die TNS-bezogenen 
Seiteninf ormationen werden im Decodierer also decodiert. 
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wobei die Seiteninf ormationen eine Flag umfassen, die die 
Verwendung von TNS anzeigt, und, falls erf order lich, Infor- 
mationen bezliglich der Zielf requenzbereichs . Zusatzlich ent- 
halten die Seiteninf ormationen ferner die Filterkoef f izien- 
ten des Pradiktionsf ilters , das zum Codieren eines Blocks 
Oder "Frames" verwendet wurde. 

Das TNS-Verf ahren laBt sich also f olgendermaBen zusammen- 
fassen. Ein Eingangssignal wird in eine spektrale Dar- 
stellung mittels einer hochauf losenden Analysef ilterbank 
transf ormiert • AnschlieSend wird eine lineare Pradiktion im 
Frequenzbereich ausgefuhrt, und zwar zwischen den f requenz- 
maBio benachbarten Spektiralwerten . Diese lineare Pradiktion 
kann als FilterprozeB zum Filtern der Spektralwerte inter- 
pret iert werden, welcher im Spektralbereich ausgefiihrt wird. 
Damit warden die ursprunglichen Spektralwerte durch den 
Pradiktionsf ehler , d. h. durch die spektralen Restwerte, 
ersetzt. Diese spektralen Restwerte werden ebenso wie iibli- 
che Spektralwerte quantisiert und codiert zum Decodierer 
iibertragen, indem die Werte wieder decodiert und invers 
quantisiert werden. Vor der Anwendung der inversen Filter- 
bank (Synthesef ilterbank) wird eine zur im Codierer vorge- 
nommenen Pradiktion inverse Pradiktion vorgenommen , indem 
das inverse Pradiktionsf ilter auf das ubertragene Pradik- 
tionsfehlersignal, d. h. auf die requantisierten spektralen 
Restwerte, angewendet wird. 

Durch die Anwendung dieser Technik ist es moglich, die zeit- 
liche Hiillkurve des Quantisierungsrauschens an die des Ein- 
gangssignals anzupassen. Dies erlaubt eine bessere Aus- 
nutzung der Markierung der Fehlersignale bei Signalen, die 
eine ausgepragte Zeitf einstruktur oder ein ausgepragtes 
transientes Wesen haben. Im Falle von transienten Signalen 
vermeidet die TNS-Technik die sog. "Vorechos", bei denen das 
Quantisierungsgerausch bereits vor dem "Anschlag" eines 
solchen Signals erscheint. 

Weiterhin bekannt ist aus der Psychoakustik, daB der Wahr- 
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nehmungseindruck von Rauschsignalen primar von deren spek- 
traler Zusammensetzung bestimmt wird und nicht von deren 
tatsachlicher Signalform. Dies ermoglicht die Benutzung 
einer sog. Rauschsubstitutionstechnik bei der Datenreduktion 
von Audiosignalen. 

Die "Rauschsubstitution" ist in Donald Schulz: "Improving 
Audio Codecs by Noise Substitution", Journal of the Audio 
Eng- Soc, Bd. 44, Nr. 7/8, S. 593 - 598, Juli/August 1996, 
beschrieben, Wie bereits erwahnt wurde, verwenden herkommli- 
Che Audiocodieralgorithmen ublicherweise Maskierungsef f ekte 
des menschlichen Ohrs, um die Datenrate oder die Anzahl von 
2u ubertragenden Bits entscheidend zu reduzieren. Maskierung 
bedeutet also, daB eine oder mehrere Frequenzkomponenten als 
Spektralwerte andere Komponenten mit niedrigeren Pegeln 
unhorbar machen. Dieser Effekt kann auf zwei Arten und Wei- 
sen ausgenutzt warden. Zuerst mussen Audiosignalkomponenten, 
die durch andere Komponenten maskiert werden, nicht codiert 
werden. Zweitens ist das Einfiihren von Rauschen durch die 
eben beschriebene Quantisierung erlaubt, wenn dieses Rau- 
schen durch Komponenten des ursprunglichen Signals verdeckt 
wird. 

Bei rauschhaften Signalen ist das menschliche Gehorsystem 
nicht in der Lage, den exakten Zeitverlauf eines solchen 
Signals zu erfassen. Bei iiblichen Algorithmen fuhrte dies 
dazu, daB sogar die Wellenform des weifien Rauschens, welche 
fiir das menschliche Gehor nahezu irrelevant ist, codiert 
wurde. Ein gehorrichtiges Codieren von rauschhaltigen 
Signalen erfordert daher hohe Bitraten fiir Inf ormationen, 
die nicht horbar sind, wenn keine speziellen Vorkehrungen 
getroffen werden- Falls jedoch rauschhaltige Komponenten von 
Signalen erfaBt und mit Inf ormationen iiber ihre Rauschpegel, 
liber ihren Frequenzbereich oder liber ihren zeitlichen Aus- 
dehnungsbereich codiert werden, kann eine solche iiber fliissi- 
ge Codierung verringert werden, was zu auBerordentlich 
groflen Biteinsparungen fiihren kann. Diese Tatsache wird 
durch die Psychoakustik untermauert, die besagt, daB der 
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Wahrnehmungseindruck von Rauschsignalen primar von deren 
spektraler Zusaininensetzung und nicht von der tatsachlichen 
Wellenform bestimmt wird. Dies ermoglicht also die Benutzung 
der Rauschsubstitutionstechnik bei der Datenreduktion von 
Audiosignalen. 

Der Codierer steht daher vor der Aufgabe, in dem gesamten 
Spektrum des Audiosignals rauschartige oder rauschhafte 
Spektralwerte zu finden bzw. zu erkennen. Eine Definition 
fiir rauschhafte Spektralwerte lautet wie foigt: Wenn eine 
Signalkomponente durch ihren Pegel, durch ihren Freguenzbe- 
reich und durch ihren ze it lichen Ausdehnungsbereich derart 
charakterisiert werden kann, daB sie ohne .horbare Unter- 
schiede fiir das menschliche Gehorsystem durch ein Rauscher- 
setzungsverf ahren rekonstruiert werden kann, wird diese 
Signalkomponente als Rauschen klassif iziert • Die Erfassung 
dieser Charakter istik kann entweder im Freguenzbereich oder 
im Zeitbereich durchgefuhrt werden, wie es in der zuletzt 
zitierten Verof f entlichung dargestellt ist. Das einfachste 
Verfahren besteht beispielsweise darin, tonale, d. h. nicht 
rauschhafte, Komponenten zu erfassen, indem eine Zeit-Fre- 
quenz-Transf ormation verwendet wird, und indem stationare 
Spitzen in zeitlich auf einanderf olgenden Spektren verfolgt 
werden. Diese Spitzen werden als tonal bezeichnet, alles 
andere wird als rauschhaft bezeichnet. Dies stellt jedoch 
eine relativ grobe Rauscherf assung dar. Eine weitere Mog- 
lichkeit, zwischen rauschhaften und tonalen Spektralkom- 
ponenten zu unterscheiden, besteht in der Verwendung eines 
Pradiktors fiir Spektralwerte in auf einanderf olgenden 
Blocken. Dabei wird eine Pradiktion von einem Spektrum zu 
dem f olgenden Spektrum, d, h. dem Spektrum, das dem nachsten 
zeit lichen Block oder Frame zugeordnet ist, durchgef iihrt . 
Unterscheidet sich ein pradizierter Spektralwert von einem 
tatsachlich durch Transformation ermittelten Spektralwert 
des nachsten zeitlichen Blocks oder Frames nicht oder nur 
wenig, so wird davon ausgegangen, daB es sich bei diesem 
Spektralwert um eine tonale Spektralkomponente handelt. 
Daraus kann ein TonalitatsmaB abgeleitet werden, dessen Wert 
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einer Entscheidung zugrundeliegt , um tonale und rauschhafte 
Spektralwerte voneinander zu unterscheiden . Dieses Erf as-- 
sungsverf ahren ist jedoch lediglich fur streng stationare 
Signale geeignet, Es versagt dabei, Situationen zu erfassen, 
bei denen Sinussignale mit gering veranderten Frequenzen 
uber der Zeit vorhanden sind. Solche Signale erscheinen oft 
in Audiosignalen, wie z. B. Vibratos, und es ist fiir den 
Fachmann of f ensichtlich, daB diese nicht durch eine rausch- 
hafte Komponente ersetzt werden konnen. 

Eine weitere Moglichkeit zur Erfassung von rauschhaften 
Signalen besteht in der Rauscherf assung durch Pradiktion im 
Zeitbereich. Hierfiir eignet sich ein angepaBtes Filter als 
Pradiktor, welcher wiederholt angewendet werden kann, um 
eine lineare Pradiktion durchzuf uhren , wie es in der Technik 
hinreichend bekannt ist. Vergangene Audiosignale werden ein- 
gespeist und das Ausgangssignal wird mit dem tatsachlichen 
Audioabtastwert verglichen. . Im Fall eines kleinen Pradikti- 
onsfehlers kann Tonalitat angenommen werden- Um den Charak- 
ter unterschiedlicher Frequenzregionen zu bestimmen, d. h. 
um den Spektralbereich zu erfassen, ob eine Gruppe von Spek- 
tralwerten eine rauschhafte Gruppe ist, miissen Zeit-Fre- 
quenz-Transf ormationen sowohl des ur sprung lichen als auch 
des pradizierten Signals durchgefuhrt werden. Dann kann ftir 
jede Frequenzgruppe ein Tonal itatsmaB berechnet werden, in- 
dem die ursprtinglichen und die pradizierten Werte mit- 
einander verglichen werden, Ein Hauptproblem dabei ist der 
begrenzte dynamische Bereich des Pradiktors. Eine rausch- 
hafte Frequenzgruppe mit einem hohen Pegel dominiert den 
Pradiktor aufgrund des resultierenden groBen Fehlers. Andere 
Frequenzregionen mit tonalen Komponenten konnten als rausch- 
haft interpretiert werden. Dieses Problem kann durch Verwen- 
dung eines iterativen Algorithmus verringert werden, bei dem 
das Fehlersignal normalerweise einen geringeren Pegel als 
das Ursprungssignal hat und wieder durch einen weiteren Pra- 
diktor eingespeist wird, wonach beide pradizierten Signale 
addiert werden. Weitere Verf ahren sind in der Veroffentli- 
chung von Schulz ausgefiihrt. 
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Die nun als rauschhaft klassif izierte Gruppe von Spektral- 
werten wird nicht wie ublich quantisiert und Entropie- bzw. 
Redundanz-codiert (mittels beispielsweise einer Huffman-Ta- 
belle) zum Empf anger ubertragen. Stattdessen wird nur eine 
Kennung zur Anzeige der Rauschsubstitution sowie ein MaB fur 
die Energie der rauschhaften Gruppe von Spektralwerten als 
Seiteninf ormationen ubertragen. Im Empf anger werden dann fur 
die substituierten Koef f izienten Zufallswerte (Rauschen) mit 
der ubertragenen Energie eingesetzt. Die rauschhaften Spek- 
tralwerte werden also durch Zuf allsspektralwerte mit ent- 
sprechendem EnergiemaB substituiert . 

Durch die Ubertragung einer einzigen Energieinf ormation an- 
stelle einer Gruppe von Codes, d. h, mehrerer quant isierter 
und codierter Spektralwerte , fiir die quantisierten Spektral- 
koeff izienten sind erhebliche Dateneinsparungen moglich- Es 
ist of f ensichtlich, daB die erreichbaren Datenrateneinspa- 
rungen vom Signal abhangen. Handelt es sich z- B. urn ein 
Signal mit sehr wenigen Rauschanteilen , d. h, sehr wenigen 
rauschhaften Gruppen, oder mit transienten Eigenschaf ten, so 
wird eine geringere Datenrateneinsparung moglich sein, als 
wenn ein sehr verrauschtes Signal mit sehr vielen rauschhaf- 
ten Gruppen codiert wird. 

Der eingangs beschriebene Standard MPEG-2 Advanced Audio 
Coding (AAC) unterstutzt die Moglichkeit der Rauschsubsti- 
tution nicht. Die erheblichen Datenrateneinsparungen sind 
mit dem bisherigen Standard daher nicht moglich. 

Fig. 3 zeigt wiederum einen Uberblick iiber einen Codierer 
und einen Decodierer, wobei der Codierer und der Decodierer 
in Fig. 3 dem beschr iebenen Codierer bzw. Decodierer von 
Fig. 2 entsprichen, wobei jedoch die Rauschsubstitution 
enthalten ist. An dieser Stelle sei noch einmal betont, daB 
die in Fig. 3 gezeigte Implementation der Rauschsubstitution 
nicht zum Stand der Technik gehort, wie es im vorhergehenden 
Absatz bereits festgestellt wurde. Gleiche Bezugszeichen 
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bezeichnen gleiche Funktionsblocke • Es ist also zu sehen, 
daU der Codierer in Fig. 3 lediglich einen neuen Block 
Rauschdetektion 310 im Vergleich zu Fig. 2 aufweist- Die 
Rauschdetektion wird mit den Ausgangssignalen , d. h. den 
Spektralwerten, der Analysef ilterbank 202 durchgef iihrt . Zur 
Rauschdetektion konnen jedoch auch die zeitlichen Eingangs- 
signale der Analysef ilterbank herangezogen werden, was durch 
den Pfeil symbolisiert ist, der den Audioeingang 200 mit dem 
Block Rauschdetektion 310 verbindet. Die Rauschsubstitution 
erfordert zwei Kategorien von Seiteninf ormationen, wie es 
durch die beiden Pfeile symbolisiert ist, die von dem Block 
Rauschdetektion aus zum Block Quantisierung und Codierung 
204 bzw. von dem Block Rauschdetektion 310 aus zu dem Block 
Bitstrommultiplexer 208 verlaufen. Urn ein rauschsubstituier- 
tes codiertes Signal wieder decodieren zu konnen, muB eine 
Rauschersetzungsanzeige als Seiteninf ormationen ubertragen 
werden, welche anzeigt, in welchem Frequenzbereich oder bei 
einem bevorzugten Verfahren in welchem Skalenf aktorband eine 
Rauschersetzung durchgef uhrt wurde. Ferner muB das MaB fur 
die Energie der Spektralwerte in der rauschhaften Gruppe 
bzw. dem rauschhaften Skalenf aktorband ebenfalls als 
Seiteninf ormationen ubertragen werden. An dieser Stelle sei 
darauf hingewiesen, daB rauschsubstituierte Spektralwerte 
nicht quantisiert und codiert werden, dem Block Quantisie- 
rung und Codierung 204 wird also mitgeteilt, daB in einem 
Skalenf aktorband eine Rauschersetzung vorliegt. Der Bit- 
strommultiplexer erhalt ebenfalls die Rauschersetzungsan- 
zeige sowie als Seiteninf ormationen das MaB fur die Energie 
der Spektralwerte in einer rauschhaften Gruppe. 

Der Decodierer gleicht ebenfalls dem bereits beschriebenen 
Decodierer in Fig. 2, mit Ausnahme des neuen Blocks Rausch- 
ersetzung 312. Der Block Rauschersetzung 312 erhalt als 
Eingangssignals vom Bitstromdemulitplexer 204 die Seiten- 
inf ormationen Rauschersetzungsanzeige und die Energien der 
ersetzten Signale, d. h. das MaB filr die Energie der Spek- 
tralwerte in einer rauschhaften Gruppe bzw. in einem rausch- 
haften Skalenf aktorband. Der Block Rauschersetzung generiert 
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fur die rauschhaften Gruppen bzw. rauschhaften Skalenf aktor- 
bander Zufalls- oder "Rausch-^Spektralwerte, die der Synthe- 
sefilterbank 218 zugefiihrt werden, urn wieder ein codiertes 
und decodiertes zeitdiskretes Audiosignal zu erhalten. Es 
ist of fensichtlich, daS es fur die Synthesef ilterbank 218 
keine Rolle spielt, ob sie Rausch-Spektralwerte oder "nor- 
male" requantisierte Spektralwerte in den Zeitbereich trans- 
f ormiert • 

Bei der bekannten Rauschsubstitutionstechnik besteht das 
Problem, daB Teile des Eingangssignals durch Rauschen 
substituiert und dann mit nichthorbaren. Qualitatseinbufien 
wieder decodiert werden konnen, wenn das Eingangssignal eine 
gleichmaBige Rauschstruktur , d. h. ein ebenes oder f laches 
Spektrum enthalt. Bei transienten Signalen oder Sprachsigna- 
len ist dies nicht gegeben,.so da/S entweder auf den Einsatz 
der Rauschsubstitution ganzlich verzichtet werden muB und 
eine erhohte Datenrate in Kauf genommen werden muS, oder daB 
bei trotzdem eingesetzter Rauschsubstitution storende Ver- 
falschungen des Signals entstehen. 

Die Aufgabe der vorliegenden Erfindung besteht darin, ein 
Verfahren zum Codieren bzw. Decodieren von Audiosignalen zu 
schaffen, das eine hohe Codieref f izienz ermoglicht und doch 
moglichst keine horbaren Signalverf alschungen zur Folge hat. 

Diese Aufgabe wird durch ein Verfahren zum Codieren gemaB 
Anspruch 1 sowie durch ein Verfahren zum Decodieren gemaB 
Anspruch 2 gelost. 

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, 
daB eine entsprechende Kombination der TNS-Technik mit der 
Rauschsubstitution zu einer weiteren Erhohung des Codier- 
ungsgewinns ohne horbare Signalverf alschungen fiihrt. Die 
durch die TNS-Verarbeitung entstehenden spektralen Restwerte 
weisen von sich aus einen wesentlich geringeren Energie- 
gehalt als die urspriinglichen Spektralwerte auf. Das zu den 
spektralen Restwerten gehorige Signal hat im Vergleich zu 
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dem ursprunglichen Signal einen wesentlich f lacheren Ver- 
lauf. Durch Pradiktion der Spektralwerte uber der Frequenz 
wird der stark schwankende Verlauf der Hiillkurve von transi- 
enten Signalen gewissermaBen extrahiert, wodurch ein Signal 
mit flacher Hiillkurve zuriickbleibt , auf das die Rauschsub- 
stitution erf indungsgemaB angewendet werden kann, um auch 
bei transienten Signalen erhebliche Biteinsparungen errei- 
chen 2u konnen. 

Ein bevorzugtes Ausf tihrungsbeispiel der vorliegenden Erfin- 
dung wird nachfolgend bezugnehmend auf die beiliegenden Zei- 
chnungen detail lierter erlautert- Es zeigen: 

Fig. 1 ein Blockdiagramm eines Codierers sowie eines Deco- 
dierers gemaB der vorliegenden Erfindung; 

Fig. 2 ein Blockdiagramm, das das Grundkonzept eines be- 
kannten Codierers und Decodierers darstellt; 

Fig. 3 ein Blockdiagramm des in Fig. 2 gezeigten Codierers, 
der um die Rauschsubstitution erweitert ist; 

Fig. 4 eine Tabelle zur Veranschaulichung der Dualitat zwi- 
schen dem Zeit- und dem Frequenzbereich; 

Fig. 5a ein Beispiel fvir ein transientes Signal; 

Fig. 5b Hilbert-Hiillkurven von Teilbandpafisignalen aufgrund 
des in Fig. 5a gezeigten transienten Zeitsignals; 

Fig. 6 eine Prinzipdarstellung der Pradiktion im Frequenz- 
bereich; 

Fig. 7a ein Beispiel zur Veranschaulichung der TNS-Technik; 



Fig. 



7b eine Gegentiberstellung des zeitlichen Verlaufs eines 
eingefiihrten Quantisierungsrauschens mit (links) und 
ohne (rechts) TNS-Technik; 
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Fig. 8a eine vereinfachte Blockdarstellung eines Codierers, 
der ein TNS-Filter aufweist; 

Fig. 8b eine Detaildarstellung des TNS-Filters von Fig. 8a; 

Fig. 9a eine vereinfachte Blockdarstellung eines Deco- 
dierers, der ein inverses TNS-Filter aufweist; und 

Fig. 9b eine detailliertere Darstellung des inversen TNS- 
Filters von Fig. 9a. 

Fig. 1 zeigt einen Codierer und einen Decodierer gemaB der 
vorliegenden Erfindung. Im Vergleich zu dem in Fig. 3 be- 
schriebenen Codierer enthalt der erf indungsgeina/3e Codierer 
aus Fig. 1 eine Kombination der TNS-Filterung und der 
Rauschsubstitution. Im Gegensatz zum bekannten Codierer, der 
eine Rauschsubstitution von Spektralwerten durchfuhrt, wird 
bei dem in Fig. 1 gezeigten Codierer zusatzlich eine Rausch- 
substitution der spektralen Restwerte am Ausgang des TNS- 
Filters 804 ausgefuhrt. In Gruppen von spektralen Restwerten 
Oder SkalenfaktorbSndern mit spektralen Restwerten wird bei 
der Rauschsubstitution ein Mali fur die Energie der spektra- 
len Restwerte in einer Gruppe oder in einem Skalenf aktorband 
ermittelt und eine Rauschersetzungsanzeige zum Quantisierer 
und Codierer 204 sowie Bitstrommultiplexer 208 in Analogie 
zu einer Rauschsubstitution fur ursprungliche Spektralwerte 
ausgefuhrt . 

Im Decodierer findet wiederum der entgegengesetzte analoge 
ProzeB statt. Der Bitstromdemultiplexer 214 leitet TNS- 
Seiteninformationen zu dem inversen TNS-Filter. Diese 
rpNS-Seiteninf ormationen sind, wie bereits mehrmals erwShnt, 
die PrMdiktionskoef f izienten bzw. Filterkoef f izienten des 
TNS-Filters, eine Anzeige beziiglich des Zielf requenzbe- 
reichs, wenn die TNS-Verarbeitung f requenzselektiv ausge- 
fUhrt wurde, sowie eine Flag, die anzeigt, wo die TNS- 
Technik aktiviert war oder nicht. 
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Vom Bitstromdeinultiplexer werden ferner die Rauschersetz- 
ungsanzeige sowie die Mafie fur die Energien der ersetzten 
Spektralwerte oder spektralen Restwerte in den entsprechen- 
den Skalenf aktorbandern zu dem Rauscherzeugungsblock 312 
geleitet, Der Rauscherzeugungsblock 312 erzeugt, unabhangig 
davon, ob es sich uin rauschsubstituierte Spektralwerte oder 
rauschsubstituierte spektrale Restwerte handelt, Rausch- 
Spektralwerte, welche in das inverse TNS-Filter 900 
eingegeben werden. Das inverse TNS-Filter laBt nicht-TNS- 
verarbeitete Spektralwerte, seien sie tonaler Natur oder 
seien sie Rausch-Spektralwerte , unverandert passieren. Spek- 
trale Restwerte werden dagegen wieder TNS-riickverarbeitet , 
damit die Synthesef ilterbank 218 ein codiertes und wieder 
decodiertes zeitdiskretes Audiosignal am Audioausgang 220 
ausgeben kann- 

Im nachf olgenden sei auf die Rauschdetektion im Vergleich 
von Spektralwerten zu spektralen Restwerten eingegangen. Wie 
es bereits eingangs erwahnt wurde, sind in der Schrift von 
Schulz mehrere Methoden zum Erfassen von Rauschbereichen in 
Spektralwerten dargestellt. Diese Verfahren konnen allein 
auf den Spektralwerten selbst oder auch auf dem zeitdiskre- 
ten Audiosignal allein oder sowohl auf deiti zeitdiskreten 
Audiosignal a Is auch auf den Spektralwerten des zeitdis- 
kreten Audiosignals basieren. Dies ist in Fig. 1 sowie in 
den Fig- 2 und 3 durch den Pfeil symbolisiert , der den 
Audioeingang 200 mit dem Block Rauschdetektion verbindet. 

Zusammenfassend lautet das Verfahren der vorliegenden Erfin- 
dung wie folgt. Im Codierer wird die zeitliche Feinstruktur 
des Signals durch die TNS-Filterung "herausgenommen" . Das 
Restspektrum bzw. die spektralen Restwerte entsprechen somit 
einer amplitudenmaBig "equalisierten" Version des zeitdis- 
kreten Audiosignals am Eingang des Codierers, wobei das 
Residualspektrum, das die spektralen Restwerte aufweist, 
eine naherungsweise konstante Einhiillendenstruktur besitzt, 
Die Informationen uber den urspriinglichen Hullkurvenverlauf 
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sind in den Filterkoef f izienten des TNS-Filters, das durch 
lineare Pradiktion erhalten wird, enthalten, wobei diese 
Ihformationen als Seiteninf ormationen zum Decodierer uber- 
tragen werden. 

Auf das zeitlich naherungsweise konstante Residualspektrum, 
das die spektralen Restwerte umfafit, kann nun eine Rausch- 
substitution in Analogie zur Rauschsubstitution auf nicht- 
TNS-verarbeitete Spektralwerte angewendet werden, Entspre- 
chende Seiteninf ormationen (Anzeige der ersetzten Frequenz- 
bander und Bandenergien) werden zum Decodierer als Seitenin- 
f ormationen ubermittelt . Iin Decodierer findet der bekannte 
DecodierungsprozeB fur nichtrauschersetzte und rauscher- 
setzte Frequenzbander statt. Das durch die Rauschsubstitu- 
tion eingesetzte Rauschen besitzt keine zeitliche Feinstruk- 
tur, es hat also eine etwa flache zeitliche Hiillkurve. Bei 
der nachf olgenden inversen TNS-Filterung wird die Original- 
Zeitf einstruktur entsprechend der ubertragenen TNS-Seitenin- 
f ormationen wieder in das Signal eingefiihrt, bevor die Spek- 
tralwerte mittels der Synthesef ilterbank wieder in den Zeit- 
bereich transf ormiert werden- 

Somit ermoglicht die Kombination der Verf ahrensschritte der 
Rauschsubstitution und des "Temporal Noise Shaping" eine 
verbesserte Rauschsubstitution, welche auch fur Signale mit 
zeitlicher Feinstruktur wirkungsvoll eingesetzt werden kann, 
wobei aufgrund des TNS-Verf ahrens das eingefuhrte Quanti- 
sierungsrauschen zeitlich geformt und damit "unter" das 
zeitliche Signal gepackt wird. 
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Patentanspruche 

Verfahren zum Codieren eines Audiosignals mit folgenden 
Schritten: 

Transformieren (202) eines zeit lichen Audiosignals in 
den Frequenzbereich, um Spektralwerte (x(l), x(n)) 
des zeitlichen Audiosignals zuerhalten; 

Durchfuhren einer Pradiktion der Spektralwerte uber der 
Frequenz (804), um spektrale Restwerte (Xr(1), 
XR(n) ) zu erhalten; 

Erfassen (310) von Rauschbereichen in den spektralen 
Restwerten ; 

Rausch-Substituieren (310) der spektralen Restwerte in 
den Rauschbereichen; und 

Einbringen (208) von Inf orraationen bezuglich der Rausch- 
bereiche sowie der Rauschsubstitution in Seiteninf orma- 
tionen eines codierten Audiosignals. 

Verfahren zum Decodieren eines codierten Audiosignals, 
mit folgenden Schritten: 

Empfangen (212) des codierten Audiosignals; 

Erfassen (214) von Informationen in den Seiteninf orma- 
tionen, die sich auf eine Rauschsubstitution und auf 
Rauschbereiche der spektralen Restwerte beziehen; 

Erzeugen (312) von spektralen Rausch-Restwerten aufgrund 
der erfafiten Informationen in den Rauschbereichen; 

Durchfuhren einer inversen Pradiktion (900) uber der 
Frequenz, um aus den rauschsubstituierten spektralen 
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Rausch-Restwerten Spektralwerte zu erhalten; und 

Transformieren (218) der Spektralwerte in den Zeit- 
bereich, um ein decodiertes Audiosignal zu erhalten. 

verfahren nach Anspruch 1 oder 2, bei dem die Pradiktion 
(804) bzw. inverse Pradiktion (900) nur fur einen be- 
stimmten Bereich der Spektralwerte (x(l), . . x(n)) 
ausgefiihrt wird. 

verfahren nach einem der vorhergehenden Anspruche , bei 
dem ein Hinweis, daB die Pradiktion verwendet wurde , 
Pradiktionskoeff izienten und gegebenenf alls Frequenzbe- 
reichsangaben fiir die Pradiktion (804) in den Seitenin- 
formationen des codierten Audiosignals vorhanden sind. 

Verfahren nach einem der vorhergehenden Anspruche, bei 
dem durch die Pradiktion (804) erzeugte Filterkoef f i- 
zienten in Seiteninf ormationen des codierten Audiosi- 
gnals eingebracht werden (208) . 

Verfahren nach einem der vorhergehenden Anspruche, bei 
dem, die Rauschsubstitution (310) skalenf aktorbandweise 
durchgefuhrt wird. 

Verfahren nach einem der vorhergehenden Anspruche, bei 
dem der Schritt des Rauschsubstituierens (310) das 
Berechnen der Energie der spektralen Restwerte (Xr(1) , 
XR(n)) in einem erfaBten Rauschbereich, der ein 
Skalenfaktorband aufweist, umfaBt, wobei die die Rausch- 
substitution betreffenden Inf ormationen in den Seitenin- 
formationen des codierten Audiosignals an der im Bit- 
strom vorgesehenen Stelle fiir den/die Skalenf aktoren fur 
das eine Skalenfaktorband stehen, und die Energie der 
Fehlerrestwerte in einem entsprechenden Rauschbereich 
umf assen. 

Verfahren nach einem der vorhergehenden Anspruche, bei 
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dem wahrend des Codierens die spektralen Restwerte, die 
nicht in Rauschbereichen liegen, unter Berlicksichtigung 
der psychoakustischen Maskierung quantisiert warden, und 
bei dexn wahrend des Decodierens die quantisierten spek- 
tralen Restwerte, die nicht in Rauschbereichen liegen, 
requantisiert und dann der inversen Pradiktion unterzo- 
gen warden, un\ die Spektralwerte (x(l), x(n)) zu 

erhalten- 
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